Google le poate reda „vederea“ nevăzătorilor printr-o nouă tehnologie
Google are o bază de date imensă cu imagini și mai nou a reușit câteva performanțe în ceea ce privește analiza lor. Astfel, un software a reușit să recunoască elemente din poze și să le numească.
Google a reușit cu succes să testeze software-ul de înțelegere a pozelor. Algoritmul dezvoltat de inginerii săi presupune că sunt analizate componentele și la final generează o legendă care explică ce se întâmplă în acel cadru. Astfel, compania adaugă încă o componentă de „traducere“ serviciilor sale pe lângă traducerea cuvintelor și a limbajului natural într-unul pe care îl pot înțelege computerele (Google Now).
Technology Review informează că această tehnologie nouă a Google poate fi utilizată cu succes în motoare de căutare, în sisteme automate de publishing și să îi ajute pe nevăzători să navigheze pe Internet sau, de ce nu? în lumea reală peste câțiva ani. În esență, noul algoritm funcționează la fel ca cel de traducere între limbi și între limbajul natural și cel al computerelor.
Sunt analizate individual elementele, apoi sunt puse într-un context (în cel din care fac parte) și interpretate semnificațiile, iar la final este generată o frază care descrie în altă formă (în altă limbă, în cuvinte o imagine etc.) ceea ce s-a introdus în sistem. Tehnica a fost testată folosind o rețea neuronală și au fost analizate 100.000 de imagini, iar explicațiile generate au fost apoi sortate după cum se vede în poza de mai jos.
Desigur, oamenii sunt cei care au decis care legendă se potrivește cu poza, dar sunt cazuri în care sistemul s-a descurcat foarte bine. În altele a eșuat lamentabil, dar este, totuși, la început. Sistemul a fost denumit „Neural Image Caption“ și a reușit un scor de 59 în sistemul BLEU, în timp ce altele s-au oprit la 25. Un om ajunge la 69. NIC, combinat cu un gadget precum Google Glass, i-ar putea ajuta peste 10 ani sau mai devreme pe nevăzători să perceapă mai ușor lumea din jur.